{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "solar-hearing",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[master 40b96bc] 更新I #1 change Jul 31,2021?2004l\n",
      " 1 file changed, 108 insertions(+), 108 deletions(-)\n",
      "枚举对象中: 5, 完成.04l\u001b[?2004l\n",
      "对象计数中: 100% (5/5), 完成.\n",
      "使用 96 个线程进行压缩\n",
      "压缩对象中: 100% (3/3), 完成.\n",
      "写入对象中: 100% (3/3), 2.19 KiB | 559.00 KiB/s, 完成.\n",
      "总共 3（差异 1），复用 0（差异 0），包复用 0\n",
      "remote: Resolving deltas: 100% (1/1), completed with 1 local object.\u001b[K\n",
      "To github.com:ustchope/biostar_handbook\n",
      "   d283e2d..40b96bc  master -> master\n",
      "\u001b[?2004h"
     ]
    },
    {
     "ename": "",
     "evalue": "1",
     "output_type": "error",
     "traceback": []
    }
   ],
   "source": [
    "# 增加更新\n",
    "git add 'I 前言.ipynb'\n",
    "\n",
    "#git remote -v\n",
    "\n",
    "git commit -m '更新I #1 change Jul 31,2021'\n",
    "\n",
    "git push github master"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "informational-scout",
   "metadata": {},
   "source": [
    "# 欢迎阅读Biostar手册"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "variable-amendment",
   "metadata": {},
   "source": [
    "映泰手册向读者介绍了生物信息学，这是生物学、计算机科学和统计数据分析交叉的科学学科，致力于基因组信息的数字处理。\n",
    "\n",
    "映泰手册已在研究型大学环境中开发、改进和完善，同时用于获得认可的博士学位。 水平训练计划。 本书的内容为成千上万的学生提供了分析基础，其中许多人已成为全职生物信息学家，并在世界上最具创新性的公司工作。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "younger-unknown",
   "metadata": {},
   "source": [
    "## 怎么下载这本书？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "careful-international",
   "metadata": {},
   "source": [
    "该书可供注册用户使用。 最新版本可从以下网址下载：\n",
    "* 映泰手册，第 2 版，PDF1 • 映泰手册，第 2 版，电子书 2\n",
    "* 这本书定期更新（通常每天），尤其是在春季和秋季学期\n",
    "\n",
    "当这本书被用作教科书时。 我们建议通过网站访问本书，因为网络格式将始终包含最新的内容。 我们每年都会发送几次描述新内容的电子邮件。 想知道什么时候发布新内容？ 在下面订阅："
   ]
  },
  {
   "cell_type": "markdown",
   "id": "incoming-budget",
   "metadata": {},
   "source": [
    "## 在线课程"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "recreational-netscape",
   "metadata": {},
   "source": [
    "在订阅期间（六个月或两年），本书包含对所有课程的访问权限。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "accessible-disclosure",
   "metadata": {},
   "source": [
    "Bioinformatics Data Analysis (2019)3 有 18 个讲座，视频演示。 这是我们在映泰手册第二版之后推荐的课程。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "seasonal-history",
   "metadata": {},
   "source": [
    "![](https://tva1.sinaimg.cn/large/008i3skNgy1gsu6gmgt6aj313e05aac0.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "vocal-wilson",
   "metadata": {},
   "source": [
    "Learn Bioinformatics in 100 hours (2018) 有 30 个讲座、幻灯片、作业和测验（没有视频）。 本课程使用映泰手册第一版。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "precise-peter",
   "metadata": {},
   "source": [
    "![](https://tva1.sinaimg.cn/large/008i3skNgy1gsu75aen84j313m05qdhh.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "young-israeli",
   "metadata": {},
   "source": [
    "![](https://tva1.sinaimg.cn/large/008i3skNgy1gsu75na5duj314e07uq4r.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "accessible-opportunity",
   "metadata": {},
   "source": [
    "Python Programming (2018)10 有四个讲座，包括视频、幻灯片、作业和测验。 该课程将于 2019 年秋季或 2020 年早春重新启动。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "adverse-truth",
   "metadata": {},
   "source": [
    "![](https://tva1.sinaimg.cn/large/008i3skNgy1gsu76g2ja9j312w05e3zz.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "revolutionary-console",
   "metadata": {},
   "source": [
    "## 访问您的帐户"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "frequent-updating",
   "metadata": {},
   "source": [
    "登录用户可以通过以下链接管理他们的帐户。 您也可以通过此页面更改您的电子邮件或注销。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "brave-restaurant",
   "metadata": {},
   "source": [
    "## 这本书是如何开发的？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "uniform-camping",
   "metadata": {},
   "source": [
    "多年来，我们一直在为生命科学家教授生物信息学和编程课程。 我们还是 Biostars: Bioinformatics Question and Answer12 网站的开发者和维护者，该网站是帮助生物信息学科学家解决数据分析问题的主要资源。 我们根据这些多年培训学生和与需要帮助来完成分析的科学家互动的经验编写了这本书。 我们对将生物信息学方法应用于实际问题所面临的挑战和复杂性有着独特的理解，我们设计这本书是为了帮助读者克服这些挑战，并比他们想象的更进一步。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "compound-tongue",
   "metadata": {},
   "source": [
    "## 这本书有什么不同？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "placed-notion",
   "metadata": {},
   "source": [
    "我们使用基于问题/答案的格式来简单而实用地解释概念和演示方法。 我们发现这是我们涵盖的主题最有效的培训方法。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "known-packaging",
   "metadata": {},
   "source": [
    "## 谁是Biostar？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "seven-birthday",
   "metadata": {},
   "source": [
    "这不是什么； 这是一个谁。 而且可能是你。 这是责任超出明确界限的人。 这本书是给他们的。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "framed-foundation",
   "metadata": {},
   "source": [
    "![](https://tva1.sinaimg.cn/large/008i3skNly1gsu8pbr5fyj316o0i2dhk.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "innovative-retail",
   "metadata": {},
   "source": [
    "可视化灵感来自 Anthony Fejes 的博客文章：谁是生物信息学家？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "potential-produce",
   "metadata": {},
   "source": [
    "# 关于作者"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "whole-basis",
   "metadata": {},
   "source": [
    "István Albert 博士以走在生物信息学前沿并推动该领域向新方向发展而闻名。\n",
    "\n",
    "他帮助开创了 Galaxy 生物信息学平台，这是一个基于网络的开源工具，允许用户执行和共享数据密集型生物医学研究。他还开发了 BooleanNet ，一种生物系统模拟软件和 GeneTrack 软件平台，可自动处理和处理大量生物数据。\n",
    "\n",
    "目前，Albert 博士是网站 Biostars: Bioinformatics Questions and Answers 的首席软件开发者、维护者和管理员，该网站是每年有数百万人访问的生物信息学最全面的信息来源。\n",
    "\n",
    "除了以其在三个不同科学领域的科学创新而闻名：物理学、计算机科学和生物学，其出版物被引用超过 1 万次，阿尔伯特博士还是一位著名的教育家。他开发的课程一直受到学生的高度评价和推崇。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "experimental-tomorrow",
   "metadata": {},
   "source": [
    "2014 年，István 因其卓越的讲座质量而被宾夕法尼亚州立大学授予 Paul M. Althouse 杰出教学奖。 获得如此高评价的讲座信息与您在映泰手册7中会找到的材料完全相同。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "recreational-receptor",
   "metadata": {},
   "source": [
    "Albert 博士目前是宾夕法尼亚州立大学生物信息学研究教授和该研究所生物信息学咨询中心的主任。 István 建立了这个尖端的研究机构，在那里他为数十名杰出的年轻科学家提供了雄心勃勃的研究建议和帮助。 他还领导应用生物信息学研究生证书课程，这是一个通过宾夕法尼亚州立大学世界校区提供的综合生物信息学培训课程，让任何人在任何地方都能获得\n",
    "深入了解这个令人兴奋的新领域。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "lined-genius",
   "metadata": {},
   "source": [
    "# 为什么是生物信息学？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "impaired-birmingham",
   "metadata": {},
   "source": [
    "在现代世界，探索时代似乎已经结束。 我们去过月球，南极有研究基地，我们可以观察原子。 您可能会问自己是否有奇迹等待被发现？ 毕竟，我们所剩下的似乎只是改进和改进先前的观察结果。\n",
    "\n",
    "我有好消息要告诉大家。 信息时代开辟了一个全新的科学领域，即理解生命本身由什么组成的领域。 我们都是这门新科学的初学者，我们都是从相同的知识和原则开始的。 每个人都有机会使用自己的电脑做出独特而引人入胜的发现。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "located-anchor",
   "metadata": {},
   "source": [
    "## 这本书是关于什么的？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "perceived-locator",
   "metadata": {},
   "source": [
    "生活中一些最重要的问题的答案就在我们自己。生物信息学是数据科学和生物学结合的一门新科学。通过这个新兴的研究领域，科学家们能够找到并解码我们自己基因中隐藏的信息，让我们能够了解我们之前不知道的东西。\n",
    "\n",
    "这本书教你实用的技能，让你进入这个快速发展的行业。从基本概念开始，例如理解数据格式、一般如何进行分析以及可以从数据中得出什么结论，手册让您轻松进入无限的可能性世界。\n",
    "\n",
    "在本书的帮助下，您将重现真实数据分析场景的结果，例如基因组组装或基因表达分析。您将在手册中找到的方法和工具在世界一流的研究设施中得到改进，将使您能够进入这个新领域并解决我们在 21 世纪科学前沿面临的一些最重大的挑战。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "owned-release",
   "metadata": {},
   "source": [
    "## 书中涵盖了哪些内容？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "guilty-pipeline",
   "metadata": {},
   "source": [
    "手册分为几个部分。 我们涵盖了基础及其在现实数据分析场景中的应用。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "accepted-faith",
   "metadata": {},
   "source": [
    "生物信息学分析概念：\n",
    "* 数据格式和存储库。\n",
    "* 序列比对。\n",
    "* 数据可视化。\n",
    "* Unix 命令行用法。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "coral-force",
   "metadata": {},
   "source": [
    "生物信息学协议：\n",
    "* 基因组变异和SNP 调用。\n",
    "* RNA-seq 和基因表达分析\n",
    "* 基因组组装\n",
    "* 宏基因组学分类\n",
    "* ChIP-Seq 分析"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "awful-injury",
   "metadata": {},
   "source": [
    "软件工具使用：\n",
    "* 使用短读对齐器\n",
    "* 使用质量控制工具\n",
    "* 操作序列数据\n",
    "左侧的目录允许您跳转到相应的部分。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "neither-mills",
   "metadata": {},
   "source": [
    "# 什么是生物信息学？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "baking-cologne",
   "metadata": {},
   "source": [
    "生物信息学是一个新的、以计算为导向的生命科学领域。 它的主要目标是理解生物体内存储的信息。 生物信息学依赖并结合了生物学、计算机科学和数据分析的概念和方法。 生物信息学家主要根据他们通过数字解析基因组信息对生物过程产生的新见解来评估和定义他们的成功。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "orange-workplace",
   "metadata": {},
   "source": [
    "> 生物信息学是一门数据科学，研究信息如何在生物体内存储和处理。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "ordered-subsection",
   "metadata": {},
   "source": [
    "## 生物信息学发生了怎样的变化？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "young-sauce",
   "metadata": {},
   "source": [
    "在早期——也许直到 2000 年代初——生物信息学是序列分析的同义词。 科学家通常只获得几个 DNA 序列，然后分析它们的各种特性。 今天，序列分析仍然是生物信息学家工作的核心，但它也远远超出了它。\n",
    "\n",
    "在 2000 年代中期，所谓的下一代高通量测序仪器（例如 Illumina HiSeq）使得在单次实验运行中测量细胞的完整基因组含量成为可能。 随着科学家们能够捕捉到与 DNA 相关的所有事物的快照，数据量急剧增加。\n",
    "\n",
    "这些新技术将生物信息学转变为一个全新的数据科学领域，该领域建立在“经典生物信息学”的基础上，可以处理、调查和总结异常复杂的海量数据集。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "expired-proof",
   "metadata": {},
   "source": [
    "## 生物信息学有哪些子领域？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "alternate-simulation",
   "metadata": {},
   "source": [
    "DNA 测序最初用于揭示细胞的 DNA 含量。 然而，许多人可能会感到惊讶，生物信息学未来最重要的前景可能在于其他应用。 一般来说，大多数生物信息学问题属于以下四类之一：\n",
    "1. 分类：确定一个生物种群的物种组成\n",
    "2. 组装：建立基因组的核苷酸组成\n",
    "3. 重测序：识别基因组中的突变和变异\n",
    "4. 定量：使用DNA测序来测量细胞的功能特征"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "humanitarian-advantage",
   "metadata": {},
   "source": [
    "人类基因组计划完全属于组装类别。自完成以来，科学家们已经组装了数千种其他物种的基因组。然而，数百万物种的基因组仍然完全未知。\n",
    "\n",
    "试图确定与已知基因组相关的变化的研究属于重测序研究领域。 DNA 突变和变异可能会导致表型变化，例如新出现的疾病、健康状况的变化、不同的存活率等等。例如，有几项正在进行的工作来编译人类基因组中存在的所有变体——这些工作属于重测序类别。由于生物信息学家的工作，正在进行大规模的计算工作，以从通过重新测序获得的知识中产生具有临床价值的信息。\n",
    "\n",
    "活的微生物围绕着我们，我们与它们共存于复杂的集体中，只有通过保持相互依存的和谐才能生存。通过遗传物质对这些几乎不为人知的微生物种类进行分类是生物信息学的一个快速发展的子领域。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "little-seafood",
   "metadata": {},
   "source": [
    "最后，也许最出乎意料的是，生物信息学方法可以通过量化帮助我们更好地了解生物过程，如基因表达。在这些协议中，测序程序用于确定与其他生物过程相关的各种 DNA 片段的相对丰度。\n",
    "\n",
    "几十年来，生物学家已成为操纵 DNA 的专家，现在能够选择许多自然发生的分子过程来复制、翻译和复制 DNA 分子，并将这些动作与生物过程联系起来。测序为这个世界打开了一扇新的窗口，不断发现新的方法和序列操作。各种方法通常被称为Something-Seq，例如RNA-Seq、Chip-Seq、RAD-Seq，以反映捕获/连接到测序的机制。例如，RNA-Seq 通过逆转录将其转化为 DNA 来揭示 RNA 的丰度。对该构建体进行测序允许同时测量细胞的所有基因的表达水平。例如，RAD-Seq 使用限制酶在特定位置切割 DNA，然后仅对这些位置周围的片段进行测序。这种方法在这些站点周围产生非常高的覆盖率，因此适用于种群遗传学研究。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "later-congo",
   "metadata": {},
   "source": [
    "## 是否有生物信息学中使用的功能分析列表？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "executed-clarity",
   "metadata": {},
   "source": [
    "在生命科学领域，检测是一种调查程序，用于评估或测量某些目标（如 DNA 片段）的存在、数量或功能。 加州理工学院数学教授 Lior Pachter 博士在名为 Star-Seq3 的页面上维护了一份“功能基因组学”分析技术列表。\n",
    "\n",
    "所有这些技术都属于量化类别。 每种分析都使用 DNA 测序来量化另一种测量方法，其中许多是将 DNA 丰度与各种生物过程联系起来的例子。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "executed-johnson",
   "metadata": {},
   "source": [
    "值得注意的是，该列表现在包含近 100 项技术。 包括我们在内的许多人认为，这些测序应用比确定基因组的碱基组成具有更大的重要性和影响。\n",
    "\n",
    "以下是 Pachter 博士列表中的一些检测技术示例："
   ]
  },
  {
   "cell_type": "markdown",
   "id": "loose-constraint",
   "metadata": {},
   "source": [
    "![](https://tva1.sinaimg.cn/large/008i3skNgy1gsyr93voftj30r00tidnj.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "protective-emergency",
   "metadata": {},
   "source": [
    "## 但什么是生物信息学，真的吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "working-gauge",
   "metadata": {},
   "source": [
    "因此，既然您已经了解了生物信息学的全部内容，您可能想知道作为生物信息学家日复一日地实践它是什么感觉。 事实是，这并不容易。 看看 Brent Pedersen 在《非常糟糕的事情》中的“Biostar 今日报价”：\n",
    "\n",
    "> 我已经从事生物信息学大约 10 年了。 我曾经和我的一个朋友开玩笑说我们的大部分工作都是在文件格式之间转换。 我们不再开玩笑了。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "corrected-documentation",
   "metadata": {},
   "source": [
    "撇开笑话不谈，现代生物信息学在很大程度上依赖于文件和数据处理。 数据集很大并且包含复杂的互连信息。 生物信息学家的工作是简化海量数据集并在其中搜索与给定研究相关的信息。 从本质上讲，生物信息学是大海捞针的艺术。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "comic-jacob",
   "metadata": {},
   "source": [
    "## 成功需要创造力吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "stainless-payment",
   "metadata": {},
   "source": [
    "生物信息学需要一种动态的、创造性的方法。协议应该被视为指导方针，而不是保证成功的规则。一成不变地遵循协议通常会适得其反。充其量，这样做会导致次优结果；在最坏的情况下，它会产生错误信息，导致研究项目结束。\n",
    "\n",
    "生物体以极其复杂的方式运作。生物信息学家需要认识到这种复杂性，动态响应变化，并了解何时方法和协议不适合数据集。探索科学知识前沿的无数复杂性和挑战总是需要创造力、敏感性和想象力。生物信息学也不例外。\n",
    "\n",
    "不幸的是，认为生物信息学是一种任何人都可以快速添加到他们的工具包而不是一个科学领域的程序技能的误解可能会导致一些人低估生物信息学家对项目成功所做贡献的价值。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "anonymous-desktop",
   "metadata": {},
   "source": [
    "正如 Nature 论文核心服务：奖励生物信息学家所观察到的那样\n",
    "> 除非分析人员被认为是需要职业道路的创造性合作者，否则生物数据将继续堆积。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "peripheral-district",
   "metadata": {},
   "source": [
    "生物信息学需要多种技能、广泛的实践和熟悉多种分析框架。 任何希望培养在该领域取得成功所需的特殊创造力的人都需要适当的培训、扎实的基础和对概念的深入理解。\n",
    "\n",
    "这种对创造力的需求以及生物信息学家“跳出框框”思考的必要性正是本手册旨在教授的内容。 我们不只是想列出指令：“做这个，做那个。” 我们希望帮助您建立强大而可靠的基础，让您在（不是如果）那个时候到来时发挥创造力。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "pressing-building",
   "metadata": {},
   "source": [
    "## 分析都是一样的吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "worthy-summary",
   "metadata": {},
   "source": [
    "大多数生物信息学项目都从一个“标准化”计划开始，就像您在本手册中找到的那些。 然而，这些计划从来都不是一成不变的。 根据观察的类型和特征以及分析的结果，额外的任务不可避免地会偏离原始计划，以解释在数据中观察到的差异。 通常，研究需要实质性的定制。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "conditional-proposal",
   "metadata": {},
   "source": [
    "同样，作为核心服务的作者：奖励生物信息学家注意以下几点：\n",
    "> “没有一个项目是完全相同的，我们对一次性请求的常见程度感到惊讶。 许多人想要一些常规程序，例如寻找在疾病中表达的基因。 但是 79% 的技术应用于不到 20% 的项目。 换句话说，大多数研究人员来到生物信息学核心寻求定制分析，而不是标准化包。”"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "academic-planner",
   "metadata": {},
   "source": [
    "总之，几乎没有两种分析是完全相同的。 此外，项目大幅偏离标准化工作流程也很常见。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "according-dialogue",
   "metadata": {},
   "source": [
    "## 生命科学家应该了解生物信息学吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "removable-bumper",
   "metadata": {},
   "source": [
    "是的！\n",
    "\n",
    "生物信息学分析的结果与生命科学中的大多数研究领域相关。 即使科学家自己不进行分析，他们也需要熟悉生物信息学的运作方式，以便他们能够准确地解释生物信息学家的发现并将其纳入他们的工作中。 所有用生物信息学见解为他们的研究提供信息的科学家都应该通过研究其原理、方法和局限性来了解它是如何工作的——其中大部分内容在本手册中为您提供。\n",
    "\n",
    "我们相信，即使对于那些不打算自己运行分析的人来说，这本书也很有用。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "separate-jurisdiction",
   "metadata": {},
   "source": [
    "## 需要什么类型的电脑？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "political-capitol",
   "metadata": {},
   "source": [
    "本书中介绍的所有工具和方法都经过测试，可以在所有三种主要操作系统上运行：MacOS、Linux 和 Windows 10。请参阅计算机设置页面。\n",
    "\n",
    "为获得最佳效果，Windows 10 用户需要加入 Windows Insider8 计划（Microsoft 提供的免费服务），以便他们安装最新版本的“Bash Unix\n",
    "对于 Windows。”"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "moderate-builder",
   "metadata": {},
   "source": [
    "![](https://tva1.sinaimg.cn/large/008i3skNgy1gszeb5pw1jj31i00bswfo.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "sustainable-rider",
   "metadata": {},
   "source": [
    "## 本书包含数据吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "joined-usage",
   "metadata": {},
   "source": [
    "是的，我们在 http://data.biostarhandbook.com 上有一个单独的数据站点。 各个章节将参考从该站点分发的内容。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "fewer-cathedral",
   "metadata": {},
   "source": [
    "## 这本书是给谁看的？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "likely-scenario",
   "metadata": {},
   "source": [
    "映泰手册为对基因组相关研究的数据分析方法感兴趣的学生和科学家提供培训和实践指导。 我们的目标是让读者能够对从高通量 DNA 测序仪器获得的数据进行分析。\n",
    "\n",
    "本手册的所有内容都设计得简单、简短，并面向实际应用。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "built-expense",
   "metadata": {},
   "source": [
    "## 生物信息学难学吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "functional-republican",
   "metadata": {},
   "source": [
    "生物信息学涉及生物学、计算机科学和统计数据分析等不同领域。 从业者必须掌握这三个科学领域的各种哲学、术语和研究重点，同时跟上每个领域的持续进步。\n",
    "\n",
    "它处于这些领域交叉点的位置可能使生物信息学比其他科学分支学科更具挑战性，但这也意味着您正在探索科学知识的前沿，没有什么比这更有意义的了！"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "offshore-problem",
   "metadata": {},
   "source": [
    "## 我可以从这本书中学习生物信息学吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "dominant-matrix",
   "metadata": {},
   "source": [
    "是的你可以！\n",
    "\n",
    "手册中的问题和答案经过精心挑选，为您提供稳定、渐进、积累的知识水平。 将每个问题/答案对视为一个小的、定义明确的指令单元，它建立在先前的基础之上。\n",
    "* 阅读本书将教会您什么是生物信息学。\n",
    "* 运行代码将向您展示执行分析所需的技能。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "amino-summary",
   "metadata": {},
   "source": [
    "## 我需要多长时间才能学习生物信息学？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "variable-trail",
   "metadata": {},
   "source": [
    "约100小时。\n",
    "\n",
    "当然，更准确的答案取决于你的背景准备，每个人都不一样。 建议在生物信息学所建立的三个领域（生物学、计算机科学和数据分析）中的至少一个领域接受过培训。 掌握所有技能所需的时间还取决于您打算如何使用它们。 解决更大、更复杂的数据问题将需要更高级的技能，需要更多的时间来充分发展。\n",
    "\n",
    "话虽如此，根据对该领域学员的多年评估，我们开始相信活跃的学生在投入大约 100 小时的学习后将能够进行出版物质量分析。\n",
    "\n",
    "这就是本书的真正意义所在——帮助您充分利用这 100 个小时。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "desperate-arthur",
   "metadata": {},
   "source": [
    "# 生物信息学家的生物学"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "collect-correlation",
   "metadata": {},
   "source": [
    "生物学是生命科学的一个领域，包括但不限于有机化学、生态学、植物学、动物学、生理学等。 生物学旨在了解生物体的结构、功能、起源、相互作用和分类。\n",
    "\n",
    "作为一门科学，生物学还相对不成熟。 它是不拘一格的，涵盖了几个科学领域，每个领域都没有得到充分的理解和描述。\n",
    "\n",
    "生物体极其复杂，而且总是在变化。 几个世纪以来，我们还没有足够精确的工具来衡量、描述或理解其复杂性的全部程度。 数字技术正在改变这一点。 生物信息学处于这些变化的前沿，它对生物学和更广泛的生命科学的潜在贡献是相当令人兴奋的。 随着生物信息学和其他创新方法的进步，我们希望生命科学能够成熟并开发丰富、准确的词汇表和模型来理解和描述生物体。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "devoted-response",
   "metadata": {},
   "source": [
    "由于这些原因，生命科学中当前的概念和定义仍然只是近似值。 虽然它们在某些情况下足够准确，但在其他情况下可能严重不足。 在几乎听起来像是“科学搏击俱乐部”的地方，生物信息学的“规则”如下：\n",
    "1. 没有“通用”规则。\n",
    "2. 每个看似基本的范式都有一个或多个例外。\n",
    "3. 生物信息学方法的有效性取决于数据的未知特征。\n",
    "4. 生物学总是比你想象的更复杂，即使考虑到这个规则。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "worthy-wells",
   "metadata": {},
   "source": [
    "下面，我们试图描述我们认为对理解数据中编码的信息类型很重要的生物学概念。 我们的每个定义都很简短，我们建议对每个感兴趣的概念进行额外的自我引导研究。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "organizational-intent",
   "metadata": {},
   "source": [
    "## 什么是 DNA？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "thorough-nashville",
   "metadata": {},
   "source": [
    "DNA代表脱氧核糖核酸。\n",
    "\n",
    "它是一种大分子（由较小分子构成的分子），携带所有已知生物体的发育、功能和繁殖所需的遗传指令。 在真核生物（如动物、植物和真菌）中，DNA 存在于每个细胞的细胞核中。 在原核生物（单细胞生物，如细菌和线粒体）中，DNA 存在于细胞的细胞质中。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "swiss-astrology",
   "metadata": {},
   "source": [
    "### DNA是由什么组成的？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "reduced-impact",
   "metadata": {},
   "source": [
    "DNA 由两条较小的分子链组成，它们以双螺旋结构相互缠绕。 如果你解开 DNA，你可以想象它看起来有点像梯子。 梯子有两个重要部分：两边的杆子和你爬的梯级。 DNA 的“极点”由脱氧核糖（糖）和磷酸盐的交替分子组成。 虽然它们提供了结构，但对于生物信息学来说，最重要的是 DNA 的“梯级”。\n",
    "\n",
    "为了理解 DNA 的“梯级”，想象一个梯子从中间分成两半，每一半都是一根柱子，一堆半梯级伸出。 在 DNA 中，这些“半阶”是一种称为核苷酸的分子。 遗传信息按照这些核苷酸出现的顺序或序列编码到 DNA 中。 DNA 的“阶梯”由每个“半梯级”之间的键连接在一起。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "affiliated-cleaner",
   "metadata": {},
   "source": [
    "### 什么是核苷酸？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "anonymous-participant",
   "metadata": {},
   "source": [
    "核苷酸是核酸（DNA 和 RNA——我们稍后会谈到）的组成部分。 在 DNA 中，有四种类型的核苷酸：腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。 因为它们出现的顺序编码了生物学家试图获取的信息\n",
    "理解，我们分别用它们的第一个字母 A、C、G 和 T 来指代它们。\n",
    "* A 腺嘌呤\n",
    "* C 胞嘧啶\n",
    "* G鸟嘌呤\n",
    "* T 胸腺嘧啶"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "postal-headset",
   "metadata": {},
   "source": [
    "回到梯子的比喻。 “核苷酸”是构成我们阶梯每半个梯级的分子类型。 因为它们充当编码遗传信息的单位，所以每个字母也称为碱基。\n",
    "\n",
    "例如，我们如何使用这些字母表示 DNA 碱基序列，如果我们取导致炭疽病的炭疽芽孢杆菌的 DNA，将双螺旋展开成一个梯子，然后将梯子一分为二，顶部 half（前向链——我们稍后会讲到）会写成这样：\n",
    "ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "generous-hartford",
   "metadata": {},
   "source": [
    "### 什么是碱基对？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "agricultural-norman",
   "metadata": {},
   "source": [
    "当您将梯子的两侧放回原处时，每个梯级都由两个底座之间的连接构成。 当它们结合时，我们称它们为碱基对（或有时称为“bp”）。\n",
    "\n",
    "当谈到碱基对时，重要的是要记住腺嘌呤只与胸腺嘧啶结合，鸟嘌呤与胞嘧啶结合。 在阶梯类比中，这意味着每个梯级将表示为“A-T”、“T-A”、“G-C”或“C-G”。\n",
    "\n",
    "某些共享某些共同属性的核苷酸组可以用所谓的歧义代码指定，例如，W 代表 A 或 T：\n",
    "* Y 嘧啶（C 或 T）\n",
    "* R 嘌呤（A 或 G）\n",
    "* W 弱（A 或 T）\n",
    "* S 强（G 或 C）\n",
    "* K 酮（T 或 G）\n",
    "* M 氨基（C 或 A）\n",
    "* D A、G、T（不是 C - 记住在 C 之后）\n",
    "* V A、C、G（不是 T - 记住在 T/U 之后 - 我们很快就会到达“U”）\n",
    "* H A、C、T（不是 G - 记住在 G 之后）\n",
    "* B C、G、T（不是 A - 记住在 A 之后）\n",
    "* N 任何碱基\n",
    "* \\- gap"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "angry-means",
   "metadata": {},
   "source": [
    "### 什么是 DNA 链？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "harmful-recommendation",
   "metadata": {},
   "source": [
    "还记得我们把 DNA“梯子”从中间分成两半，这样每一边都是一根杆子，半个横档伸出来吗？ 这两半称为链。 为了区分两条链，科学家将一条标记为正向链，将第二条标记为反向链。 上面，我们举了炭疽芽孢杆菌中正向链的例子。 这是它与反向链配对的样子：\n",
    "```bash\n",
    "forward --> ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT\n",
    "            |||||||||||||||||||||||||||||||||||||\n",
    "            TATAAAAAAGAACAAAAAATATAGGTGTTTGAGAAAA <-- reverse\n",
    "```"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "friendly-while",
   "metadata": {},
   "source": [
    "连接两侧碱基的线表示碱基对关系。 “正向”和“反向”只是标签。 标记的选择是任意的，不依赖于 DNA 的任何固有特性。 前向链并不“特殊”。 科学家们在第一次分析生物体的 DNA 时决定将哪些称为“正向”，哪些称为“反向”。 即使决定是任意的，为了清晰的沟通，保持与该决定的一致性也很重要。 正向和反向链也可以用不同的术语表示。 例如，在某些数据集中，您可能会发现它们被标记为 + 和 -。 它们也可能被称为顶部和底部链，甚至 Watson 和 Crick 链。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "engaged-latest",
   "metadata": {},
   "source": [
    "在我们看来，这些差异不必要地令人困惑。 请避免使用除正向和反向之外的任何其他术语来引用链。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "gorgeous-hearts",
   "metadata": {},
   "source": [
    "## DNA有方向性吗？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "virtual-september",
   "metadata": {},
   "source": [
    "是的，DNA 的方向性由分子的极性决定。 对于每条链，该方向以相反的方式运行。 通常，我们用箭头表示这种极性：\n",
    "```\n",
    "------>\n",
    "ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT\n",
    "|||||||||||||||||||||||||||||||||||||\n",
    "TATAAAAAAGAACAAAAAATATAGGTGTTTGAGAAAA\n",
    "<------\n",
    "```"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "agreed-bristol",
   "metadata": {},
   "source": [
    "大多数生物机制（但不是全部）发生在 DNA 的单链上，并沿箭头方向发生。 因此，上述 DNA 的序列将被生化机器“看到”为：\n",
    "```\n",
    "ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT\n",
    "或者:\n",
    "AAAAGAGTTTGTGGATATAAAAAACAAGAAAAAATAT\n",
    "```"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "ongoing-angola",
   "metadata": {},
   "source": [
    "最后一个序列称为第一个序列的反向补码，它是通过颠倒字母顺序然后将 A 交换为 T 并将 C 交换为 G 形成的（反之亦然）。\n",
    "\n",
    "因此，可能需要考虑 DNA 序列 AAAT：\n",
    "* 反过来，TCAAA\n",
    "* 作为补充，TTTGA\n",
    "* 作为反向补码，AGTTT"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "reliable-injury",
   "metadata": {},
   "source": [
    "## 什么是意义/反义？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "casual-input",
   "metadata": {},
   "source": [
    "当一个过程发生在预期的方向时，它的方向性可以称为感性； 如果它与正常方向相反，则其方向性可以称为反感。\n",
    "\n",
    "不要将正向/反向的概念与意义/反义联系起来，这一点非常重要，因为这些概念是完全不相关的。 有义/反义是相对于序列的方向； 反过来，该序列可能来自正向或反向链。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "simple-trade",
   "metadata": {},
   "source": [
    "## 什么是 DNA 测序？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "urban-wednesday",
   "metadata": {},
   "source": [
    "DNA 测序是“包罗万象”的术语，它描述了鉴定 DNA 大分子组成的所有过程。\n",
    "\n",
    "DNA 测序过程的结果是以未处理格式存储的数据文件，通常是 FASTA、FASTQ 或未对齐的 BAM（称为 uBAM）文件。 大多数已发表的论文还将其数据存储在可以下载以进行重新分析的存储库中。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "polished-webster",
   "metadata": {},
   "source": [
    "## 什么被测序？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "graphic-block",
   "metadata": {},
   "source": [
    "必须注意的是，仪器不会直接对原始形式的 DNA 进行测序。 测序需要一个实验室过程，将原始 DNA 转化为所谓的“测序文库”——一种基于原始 DNA 的人工构建体。 创建此测序文库的过程在结果中引入了各种各样的限制和人为属性。 此外，构建测序文库的方法也会限制可以了解原始 DNA 分子的信息。\n",
    "\n",
    "大多数（也许是所有）生命科学家过度慷慨地使用“测序”一词，并且经常假设它产生的信息比它所能提供的更精确。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "verbal-token",
   "metadata": {},
   "source": [
    "## 什么是基因组？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "interracial-papua",
   "metadata": {},
   "source": [
    "基因组是生物体的所有 DNA 序列。 每个细胞通常包含整个基因组的一个副本。 更准确地说，每个细胞都有一个或多个几乎相同的基因组拷贝。 复制是细胞分裂时复制基因组的过程。 虽然由于互补性，A 和 T 核苷酸以及 C 和 G 核苷酸的数量相等，但 AT 对与 CG 对的相对比例可能非常不同。 一些基因组可能包含更多的 AT 对，而其他基因组可能包含更多的 CG 对。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "micro-insured",
   "metadata": {},
   "source": [
    "## 基因组的目的是什么？"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "tribal-birmingham",
   "metadata": {},
   "source": [
    "基因组包含使生物体发挥功能的信息。例如，在细胞生物体中，基因组具有包含制造蛋白质指令的区域。这些通常称为“编码区”。\n",
    "\n",
    "基因组也可能具有用于产生蛋白质以外的分子的区域，以及调节其他过程发生速率的区域。\n",
    "\n",
    "所有基因组都遵循进化原理。因此，健康基因组的某些（甚至重要的）部分可能没有功能，可能不再有任何明显的目的。基因组的一部分可能由各种散布的重复序列的副本组成。在某些时候，生物学家将这些区域标记为“垃圾 DNA”，但此后该术语已成为争议的避雷针。\n",
    "\n",
    "事实证明，识别非功能性区域比生物学家最初预期的更困难，也更具争议性。所谓的 C 值悖论捕捉到了一个观察结果，即基因组的大小并不直接决定基因组的复杂性。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "excellent-longitude",
   "metadata": {},
   "source": [
    "## 基因组有多大？"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "martial-arlington",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Bash",
   "language": "bash",
   "name": "bash"
  },
  "language_info": {
   "codemirror_mode": "shell",
   "file_extension": ".sh",
   "mimetype": "text/x-sh",
   "name": "bash"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
